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摘要 : 


[ 目的 】 基 于 多 知识 库 进行 实体 链接 , 解决 基于 单一 知识 库 的 实体 链接 覆盖 度 低 的 问题 。 


【方法 ] 首先 生 


成 文本 的 n-gram 并 利用 词性 和 多 个 指称 -实体 字典 获取 候选 指称 ,然后 生成 指称 组 合并 保留 覆盖 度 最 大 且 不 被 
其 他 组 合 包含 的 指称 组 合 , 接着 生成 候选 实体 序列 并 利用 多 知识 库 信 息 计算 实体 序列 的 相关 度 ， 最 后 选择 相关 
度 最 大 的 实体 序列 为 最 终结 果 。[ 结果 ] 以 Wikipedia 和 Freebase 为 例 的 实验 结果 表明 , 基于 Wikipedia+Freebase 
的 实体 链接 准确 率 、 召 回 率 、F 值 分 别 达 到 71.81%、76.86%、74.25%。[【 局 限 】 基 于 词性 过 滤 n-gram 缺乏 理论 
依据 ,数据 集 FACC1 具有 高 准确 率 和 低 召 回 率 的 特点 。【 结论 ] 利用 多 个 知识 库 的 实体 信息 ， 能 够 提升 实体 链接 


效果 。 
关键 词 : 实体 链接 ”知识 库 
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实体 (Entity) 是 现实 世界 中 客观 存在 的 并 可 以 相 
互 区 别 的 事物 ， 既 包括 人 人名、 地名、 机构 名 等 具体 事 
物 ， 又 包括 概念 、 关 系 等 抽象 事物 。 实 体 链接 (Entity 
Linking) 是 指 文档 中 代表 实体 的 文本 片段 ， 即 实体 指 
称 (Entity Mention， 简 称 指称 ) 与 特定 知识 库 
(Knowledge Base) 中 的 条 目 (Entry) 相 链接 的 过 程 ， 有 
时 称 命名 实体 链接 (Named Entity Linking)!" 
实体 广泛 存在 于 各 类 文本 中 ， 而 面 对 未 知 实体 时 ， 
需要 通过 实体 链接 技术 , 利用 知识 库 中 相关 条 目 信息 
为 原文 本 添加 丰富 的 语义 信息 ,帮助 读者 加 深 关 于 该 
实体 的 了 解 ， 从 而 有 助 于 人 或 者 计算 机 更 好 地 理解 、 
处 理 文 本 。 


Il 


实体 链接 研究 因 其 重要 的 研究 意义 而 备 受 关注 ， 
多 项 国际 评测 会 议 发 布 了 实体 链接 相关 的 任务 ， 如 
2007 年 INEX 会 议 发 布 的 “Link the Wiki” 任 务 (http:/ 
www.inex.otago.ac.nz/tracks/wiki-link/wiki-link.asp) , 
2009 年 TAC 会 议 发 布 的 Knowledge Base Population’ {£ 
务 (http://www.nist.gov/tac/)、2012 年 TREC 会 议 发 布 的 
“Knowledge Base Acceleration” 任 务 (http://trec.nist.gov/)。 
实体 链接 在 信息 检索 号、 知识 库 构建 点 、 问 答 系 统 户 
等 领域 都 有 较 好 的 应 用 前 景 。 


多 义 。 多 词 一 义 是 指 实体 可 能 有 多 个 指称 ,实体 的 标 
准 名 、 别 名 、 名 称 缩写 等 都 可 以 用 来 指 代 该 实体 , 例 
如 Michael Jordan 、MJ 和 Jordan 都 可 以 指 代 实 体 
Michael Jeffrey Jordan, 一 词 多 义 是 指 一 个 指称 可 以 指 
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代 多 个 实体 , 例如 MI 可 能 指 代 实体 Michael Jeffrey 
Jordan, 也 可 以 指 代 实 体 Michael I. Jackson。 解 决 一 词 
多 义 问题 要 利用 知识 库 中 的 实体 信息 进行 实体 消 眩 ， 
单一 知识 库 中 的 实体 信息 相对 较 少 , 笔者 认为 如 果 能 
利用 多 个 知识 库 中 的 实体 信息 进行 实体 消 歧 , 一 词 多 
义 问 题 将 会 得 到 更 好 的 解决 。 

知识 库 是 实体 链接 研究 的 基础 ， 常见 的 知识 库 包 
括 Wikipedia”, Freebase!*!, YAGO!!, DBpedial 4, H 
中 Wikipedia 是 实体 链接 研究 中 最 常见 的 知识 库 ， 它 
包含 丰富 的 文本 语义 信息 , 其 中 的 每 个 实体 页 面 都 是 
某 个 实体 的 描述 。Freebase 也 比较 常见 , 与 Wikipedia 
相 比 , Freebase 中 的 实体 信息 更 加 结构 化 ,谷歌 于 2013 
年 发 布 了 Freebase 实体 标注 数据 集 FACCI™!, 并且 该 
数据 集 已 经 在 信息 检索 领域 中 得 到 了 应 用 。FACC1 是 
对 ClueWeb09° Fil ClueWeb12” 的 实体 标注 , 利用 该 数 
据 集 可 以 统计 实体 的 流行 度 等 信息 。 

本 文 提出 了 一 种 基于 多 知识 库 的 实体 链接 方法 ， 
该 方法 利用 多 个 指称 -实体 字典 进行 指称 识别 ,利用 
多 个 知识 库 的 实体 信息 进行 实体 消 歧 ， 以 期 解决 基于 
单一 知识 库 的 实体 链接 覆盖 度 低 的 问题 。 


2 相关 研究 


实体 链接 包括 两 个 步 又 , 即 指称 识别 和 实体 消 层 [9。 
虽然 有 的 研究 5 划分 方式 略 有 不 同 ,但 本 质 上 是 一 样 
的 。 传 统 的 实体 链接 大 多 关注 长 文档 ， 近 年 来 有 研究 
者 “开始 关注 短文 本 实体 链接 ,如 微 博 、 查 询 词 等 ， 
并 已 经 在 信息 检索 领域 得 到 了 应 用 外 。 二 者 的 主要 区 
别 是 短文 本 上 下 文 信息 少 , 实体 消 上 到 相对 困难 。 男 外 
短文 本 存在 书写 不 规范 问题 , 如 丢失 大 小 写 信 息 和 标 
点 信息 中、 拼写 错误 I, 这 也 给 指称 识别 带 来 一 定 困 
难 。 因 此 笔者 认为 短文 本 实体 链接 研究 更 具 挑 战 性 ， 
应 给 予 更 多 的 关注 。 

2.1 长 文档 实体 链接 
实体 链接 的 第 一 步 是 进行 指称 识别 , 首先 要 构建 
个 指称 -实体 字典 ,大 多 数 研 究 者 抽取 Wikipedia 的 
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实体 页 面 、 消 歧 页 面 、 重 定向 页 面 的 标题 作为 实体 指 
BK, 建立 指称 -实体 字典 , 还 有 其 他 的 建立 方式 ,如 Sil 
等 所] 抽取 了 Freebase 中 实体 的 标准 名 和 别名 。 然 后 按 
一 定 的 规则 识别 实体 指称 ,如 Cucerzant 利用 大 小 写 
规则 、 先 验 统计 信息 进行 指称 识别 , 并 选择 实体 上 下 
文 与 实体 Wikipedia 主页 、 候 选 实体 之 间 的 一 致 性 最 
高 的 实体 序列 。Mihalcea 等 (9 利用 链接 概率 识别 指称 ， 
然后 综合 利用 知识 工程 方法 和 朴素 贝 叶 斯 分 类 方法 确 
定 最 终 的 实体 序列 。 

由 于 一 个 指称 可 能 指向 多 个 实体 ,因此 需要 用 一 
定 的 方法 确定 指称 所 指向 的 实体 ， 即 实体 消 歧 。 目 前 
实体 消 歧 方法 主要 包括 机 器 学 习 07 HEF N, 
图 模型 中 中、 无 监督 方法 WI 和 集成 方法 PI 等 。 
Zhang 等 ("采用 文献 [11] 的 方法 构建 指称 字典 进行 指 
称 识别 ， 如 果 候 选 指称 集 为 空 ， 则 利用 Wikipedia 的 
“Did You Mean” 和 “Wikipedia Search Engine” 特 征 补充 
候选 指称 集 ， 并 将 实体 消 靶 看 作 二 类 分 类 问题 ， 即 指 
称 及 其 所 指向 的 实体 构成 的 指称 -实体 对 为 正 例 , 与 
其 他 候选 实体 构成 的 指称 -实体 对 为 负 例 ,选取 词法 
特征 、 词 -类 别 特征 、 实 体 类 型 等 特征 , 采用 SVM 分 
类 器 分 类 ,如 果 多 个 候选 实体 标记 为 正 例 , 那么 利用 
词 袋 、 实 体 共 现 等 特征 计算 指称 -实体 相似 度 ， 选 择 相 
似 度 最 高 的 候选 实体 。Ratinov 等 Re" 假设 指称 已 经 给 
定 , 并 提出 两 类 特征 : 局 部 特征 ( 即 指称 上 下 文 与 实体 
主页 文本 、 指 称 所 在 文档 与 实体 主页 文本 、 指 称 上 下 
文 与 实体 上 上 下文、 指称 所 在 文档 与 实体 上 下 文 等 的 余 
弦 相 似 度 ) 和 全 局 特征 (包括 标准 化 谷歌 距离 、 点 互信 
息 测 度 的 实体 类 别 相 似 度 、 入 链 相似 度 、 出 链 相似 度 )， 
训练 得 到 Rank SVM 模型 ,选取 排序 最 高 的 实体 为 该 
旧称 在 上 下 文中 所 指 的 实体 。Han 等 中 同样 只 关注 实 
体 消 上 问题 ,以 指称 及 其 候选 实体 为 节点 , 构建 指称 - 
实体 、 实 体 -实体 关系 图 ， 利用 类 似 PageRank 的 机 制 
识别 实体 。 
2.2 ”短文 本 实体 链接 

Ferragina 等 上 最 早 开始 关注 短文 本 实体 链接 , 采 


用 文献 [11] 的 方法 构建 指称 字典 , 并 用 人 工 规则 过 滤 
指称 字典 , 利用 该 字典 识别 候选 指称 , 然后 利用 指称 
指向 实体 的 先 验 概率 和 候选 实体 与 其 他 候选 实体 的 相 
关 性 等 特征 ,采用 机 顺 学 习 和 人 工 规 则 两 种 方法 进行 
实体 消 上 到。Meij 等 号 则 尽 可 能 多 地 获得 候选 指称 ， 提 
出 n-gram 特征 、 概 念 特征 、n-gram- 概念 特征 Tweet 
PIES 4 类 特征 , 同样 采用 机 器 学 习 的 方法 识别 概念 
并 链 向 相应 的 Wikipedia 页 面 。Liu 等 9 在 Meij 等 的 
基础 上 又 融合 指称 -指称 特征 ,选择 相似 度 得 分 最 高 
的 实体 序列 。 

笔者 发 现 目前 实体 链接 研究 都 是 基于 单一 知识 
库 , 但 是 由 于 某 些 实体 只 存在 于 特定 的 知识 库 库 中 ， 
单一 知识 库 可 能 无 法 完全 覆盖 文档 中 的 实体 。 另 外 单 
一 知识 库 可 利用 的 实体 信息 相对 较 少 , 这 将 影响 实体 
消 上 到 的 效果 。 人 针对 以 上 问题 ,本 文 提 出 了 一 种 基于 多 
知识 库 的 实体 链接 方法 , 该 方法 能 够 有 效 地 利用 多 个 知 
识 库 的 实体 信息 ,并 同时 对 多 个 知识 库 进行 实体 链接 。 


3 实体 链接 


3.1 问题 定义 

实体 链接 是 指 给 定 一 段 文本 , 识别 其 中 包含 的 指 
BR, 利用 实体 消 歧 方法 确定 指称 指 代 的 实体 ,并 链 向 
特定 知识 库 中 的 相应 条 目 。 

实体 链接 问题 的 形式 化 定义 如 下 : 输入 是 由 n 个 
单词 组 成 的 文本 t= (ww …wn)， 输 出 是 指称 组 合 
M=(m,,m,---m,) 及 其 对 应 的 实体 序列 五 = 
(elez …ej) ， 其 中 e; 表示 特定 知识 库 中 的 一 个 条 目 。 
如 果 |M|=1, 那么 输出 是 该 指称 可 能 对 应 的 实体 集合 
Set<el, e2 teo 
3.2 ”实体 链接 方法 
图 1 为 基于 多 知识 库 的 实体 链接 步骤 , 分 为 离线 
阶段 和 在 线 阶 段 ， 离线 阶段 构建 指称 -实体 字典 和 实 
体 映 射 字 典 ; 在 线 阶 段 为 实体 链接 方法 的 主要 步 又， 
包括 生成 n-gram、 候 选 指称 识别 、 生 成 指称 组 合 、 生 
成 实体 序列 、 计 算 实体 相关 度 等 。 

(1) 字典 构建 

为 了 进行 指称 识别 , 笔者 从 知识 库 中 收集 实体 的 
标准 名 、 别 名 等 信息 作为 实体 指称 ,进行 相应 的 预 处 
H, 构建 指称 -实体 字典 。 指 称 -实体 字典 包含 两 个 域 ， 
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在 线 阶段 


| 输入 文本 | 


生成 n-gram 
候选 指称 识别 


生成 指称 组 合 


离线 阶段 


D 生成 实体 序列 


> 计算 实体 相关 度 


输出 实体 序列 
图 1 基于 多 知识 库 的 实体 链接 


即 指称 域 和 实体 域 ， 存储 格式 为 “<m eje …en”， 其 中 
m 表示 实体 指称 ，e1e，…e 表示 指称 m 可 能 指向 的 实体 。 

为 了 能 同时 利用 多 知识 库 信息 进行 实体 链接 ,本 
文 按 照 一 定 方 法 构建 实体 映射 字典 。 实 体 映 射 字典 包 
含 n 个 域 , 存储 格式 为 “ele,…e,”， 其 中 ;表示 知识 库 
i 的 实体 ， 且 eie，…e 为 不 同 知识 库 中 的 同一 实体 。 

(2) 方法 步骤 

DÆ n-gram 

生成 输入 短文 本 的 n-gram, 例 如 对 于 短文 本 “obama 
family tree”， 共 生成 6 个 n-gram, FP fobama, family, tree, 


语义 特征 


= 


obama family, family tree, obama family tree } 。 

ORRIRA 

对 于 生成 的 每 个 n-gram， 直 接 搜 索 多 个 指称 -实体 字典 
的 指称 域 ， 如 果 任 一 指称 -实体 字典 中 存在 相应 的 记录 ， 则 
该 n-gram 可 能 是 实体 指称 。 如 果 n-gram 所 包含 单词 的 词性 
都 不 是 名 词 ， 那么 将 被 过 滤 掉 ， 因 为 根据 笔者 的 观察 ， 实 体 
一 般 作 为 名 词 出 现 。 例 如 对 于 obama, 指称 -实体 字典 的 指 
称 域 中 存在 相应 的 记录 并 且 其 词性 为 名 词 ， 因 此 obama 是 
实体 指称 ， 同 样 , family, tree, obama family, family tree 也 
是 实体 指称 。 但 是 对 于 obama family tree， 指称- 实体 字典 的 
指称 域 中 不 存在 相应 的 记录 ， 因 此 被 过 滤 掉 。 从 而 “obama 
family tree” 共 保留 5 个 可 能 的 实体 指称 ， 即 {fobama, family, 


tree, obama family, family tree}. 
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候选 指称 识别 阶段 产生 的 实体 指称 可 能 存在 重 司 问题 ， 
有 研究 者 F" 采 用 从 左 至 右 最 长 匹配 的 策略 解决 指称 重 登 问 
题 ， 但 是 笔者 认为 这 可 能 造成 指称 识别 错误 。 本 研究 经 过 以 
下 三 个 步骤 生成 候选 指称 组 合 : 

1) 选择 至 少 一 个 相互 不 重 司 候选 指称 组 成 指称 组 合 ; 

2) 保留 覆盖 度 最 大 的 指称 组 合 ; 

3) 保留 至 少 有 一 个 指称 不 被 其 他 组 合 包含 的 指称 组 
合 。 这 里 的 包含 是 指 要 么 一 个 指称 是 另 一 个 指称 的 一 部 分 ， 
要 么 两 个 指称 相同 。 

例如 “obama family tree” 共 保留 两 个 指称 组 合 ， 即 
{obama+family tree, obama family+tree}。 
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如 果 生 成 指称 组 合 阶 段 共 保留 n 个 指称 组 合 ,， 且 第 i 个 
指称 组 合 包含 ni 个 指称 ， 对 于 每 一 个 指称 ,笔者 合并 各 知识 
库 中 的 候选 实体 记录 ,并 取 先 验 概 率 最 大 的 k 个 实体 为 候选 
实体 , MAER TTL k” 个 实体 序列 。 笔 者 认为 同时 出 现 的 
实体 是 相关 的 ， 因 此 计算 每 个 实体 序列 的 相关 度 得 分 并 进 
行 降序 排列 ,返回 得 分 最 高 的 实体 序列 作为 最 终结 果 ， 见 
公式 (1): 


一 一 
e* = arg max P a- a hm, e+p b- f @) (1) 
VeeSet?s 


EWP, Sets 表示 所 有 可 能 的 实体 序列 ; hmi,ei) 表示 
指称 mi 与 其 候选 实体 ei 的 相关 度 函 数 ， 如 表示 其 权重 向 量 ， 
HA a, € (0,1) 及 于 a; =1。f(e) 表示 实体 之 间 的 相关 度 函 数 ， 
b 表示 其 权重 向 量 ， 且 有 be(0,1) 及 于 b, =l. a, PF 
平衡 两 种 相关 度 函 数 的 权重 , 且 有 ou Be(0,1) 及 a+B=1。 


4 实例 研究 


由 于 在 实体 链接 人 研究 中 Wikipedia, Freebase 使 
用 比较 广泛 , 具有 较 强 的 代表 性 ， 因 此 笔者 分 别 基于 
Wikipedia, Freebase, Wikipedia+Freebase 进行 实体 
链接 。 
4.1 基于 Wikipedia 的 实体 链接 

(1) 指称 -实体 字典 构建 

本 文采 用 Bunescu 等 上 的 方法 ,抽取 Wikipedia 的 
实体 页 面 、 消 歧 页 面 、 重 定向 页 面 的 页 面 标题 以 及 实 
体 主页 的 销 文 本 ， 进 行 小 写 化 等 预 处 理 ,构建 指称 - 实 
体 字 典 。 同 时 ,利用 销 文本 统计 指称 指向 其 候选 实体 
的 次 数 , 并 将 其 存 和 人 指称 -实体 字典 中 。 

由 于 本 文 的 输入 不 包含 特殊 符号 并 且 都 是 小 写 化 
的 ,为 了 与 输入 进行 匹配 ， 笔 者 移 除 了 实体 指称 中 的 
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特殊 符号 ,并 进行 小 写 化 处 理 ， 同 时 移 除 指 称 中 的 消 
歧 信 息 , 例如 对 于 指称 The Last Supper (Leonardo da 
Vinci), 括号 及 其 内 部 的 信息 被 移 除 , 这 是 因为 文档 提 
及 实体 时 , 通常 不 会 附带 实体 的 消 歧 信息 。 如 果 经 过 
上 述 的 处 理 后 ,两 个 指称 变 成 了 相同 指称 , 那么 合并 
指称 记录 ,例如 : 
bilos Daniel Ruben_ Bilos (2) Daniel Rubén_ Bilos (1) Daniel Bilos (3) 
其 中 bilos 是 指 实体 指称 ,存储 于 指称 域 ; Daniel_ 
Ruben Bilos .Daniel Rubén Bilos .Daniel Bilos 十 bilos 
可 能 指向 的 实体 (这 里 用 实体 的 Wikipedia 主页 标题 表 
示 ), 且 在 Wikipedia 的 主页 文本 中 bilos 指向 三 个 实体 
的 次 数 分 别 是 2 次 、1 次 、3 次 , 实体 及 次 数 信息 存储 
于 实体 域 , 利用 次 数 信息 可 计算 候选 实体 的 先 验 概率 ， 
例如 bilos 指向 Daniel Bilos 的 先 验 概率 为 : 


Prior(Daniel lbilos) = (2) 


gE ai: 
24+14+3 


(2) Wikipedia 实体 特征 

指称 -实体 特征 

1) 先 验 概率 

候选 实体 的 先 验 概率 是 重要 的 消 歧 信息 ， 很 多 研 
完 P32930 都 有 使 用 ， 笔 者 利用 公式 (2) 计 算 候 选 实体 的 先 验 
LE. EE, 本文 取 各 候选 实体 先 验 概率 的 算术 平均 数 为 实 
体 序列 的 先 验 概率 ,字符 串 相似 度 的 计算 类 似 。 

2) 字符 串 相似 度 

如 果 指 称 与 其 候选 实体 的 标准 名 的 相似 度 越 高 ， 那 么 
指称 指向 该 候选 实体 的 概率 越 大 。 编 辑 距 离 (Edit Distance) 
是 一 种 度量 字符 串 相 似 度 的 方法 ， 它 是 指 一 个 字符 串 转变 
成 另 一 个 字符 串 所 需要 的 最 小 编辑 操作 次 数 。 对 于 两 个 给 定 
的 字符 串 ， 编 辑 距离 越 小 表示 两 个 字符 串 相 似 度 越 高 。 本 文 
用 公式 (3) 计 算 指 称 与 其 候选 实体 标准 名 的 相似 度 。 

ED(m,,CN(e;)) 

Max {length(m; ), length(CN(e; ))} 


hg (m;,,CN(e;)) = 1 (3) 


其 中 CN(ei) 表示 实体 ei 的 标准 名 ， 即 Wikipedia 实体 主 
页 标题 ; hy.(m;,CN(e;)) 表示 指称 与 其 候选 实体 标准 名 的 字 
ARAM, 该 值 越 高 表示 二 者 相似 度 越 大 ; 
ED(m,,CN(e;)) 表示 指称 与 其 候选 实体 标准 名 的 编辑 距离 
Max {length(m;), length(CN(e;))} 表示 指称 与 其 候选 实体 标 
准 名 字符 串 长 度 较 大 者 。 

加 实体 -实体 特征 

1) 文本 相关 度 

如 果 两 个 实体 相关 ， 那 么 它们 的 实体 描述 文本 可 能 会 
讨论 相同 的 内 容 ， 因 此 文本 相关 度 可 以 用 来 表征 实体 相关 


度 。 笔 者 对 Wikipedia 实体 主页 文本 做 了 小 写 化 、 移 除 特 殊 
字符 、 去 除 停 用 词 等 处 理 ， 用 公式 (4) 计 算 两 个 实体 之 间 的 文 
本 相关 度 。 


> Wik Wik 


fi(ei,ej) == 7 (4) 
2. 2 
"p> Wik | 2 Wik 
k=1 k=l 


其 中 fi(ei,ej) AREA 6 5 ey MLAMAL, ARM 
文本 单词 总 数 ，wik 表示 第 kk 个 单词 在 第 i 篇 文档 中 的 权重 ， 
本 文 将 单词 的 频率 作为 其 权重 。 注意, 这 里 对 实体 文本 相关 
度 的 定义 只 考 上 处 两 个 实体 的 情况 ， 如 果实 体 序列 包含 的 实 
体 数 大 于 2, 那么 取 两 两 实体 的 文本 相关 度 的 算术 平均 数 为 
实体 序列 的 文本 相关 度 ， 其 他 相关 度 计算 与 之 类 似 。 

2) 相关 实体 相关 度 

如 果 两 个 实体 相关 ， 那么 它们 可 能 会 存在 相同 的 相关 
实体 ， 因 此 相关 实体 相关 度 可 以 用 来 表征 实体 相关 度 。 
Wikipedia 的 实体 主页 中 存在 指向 其 他 实体 页 面 的 链接 ， 可 
以 利用 这 些 链 接 搜 集 候选 实体 的 相关 实体 集 。 

Wikipedia 实体 ei 存 在 三 种 类 型 的 相关 实体 : 

- 入 链 相 关 实 体 ， 即 实体 ei 在 实体 ej 的 主页 中 出 现 ， 而 
实体 ej 在 实体 ei 的 主页 中 未 出 现 , 则 实体 ej 是 实体 ei 的 入 链 
相关 实体 。 

"出 链 相关 实体 ， 即 实体 ej 在 实体 ei 的 主页 中 出 现 ， 而 
实体 ei 在 实体 ej 的 主页 中 未 出 现 , 则 实体 ej 是 实体 ei 的 出 链 
相关 实体 。 

* 互 指 相关 实体 ， 即 实体 gj 在 实体 ei 的 主页 中 出 现 ， 且 
实体 ei 在 实体 6 的 主页 中 也 出 现 , 则 实体 6 是 实体 6 的 互 指 
相关 实体 。 

本 文 利用 Jaccard 系数 表示 两 个 实体 的 相关 实体 相关 度 ， 
公式 如 下 : 


_ Seto; N Set,,| (5) 


fico (€;,€;) = 9 
US 


其 中 fo(eie) 表 示 实 体 al 和 实体 gj 的 出 链 相 关 实 体 相 
RIK, Seto 和 Sety 分别 表示 实体 ei 和 实体 gj 的 出 链 相关 实 
体 集合 。 公 式 (5) 以 出 链 相 关 实 体 为 列 ， 入 链 相关 实体 相关 
度 、 互 指 相关 实体 相关 度 的 计算 公式 与 之 类 似 ， 实 体 efe 
实体 ej 的 相关 实体 相关 度 由 三 种 类 型 相关 实体 相关 度 加 权 
平均 得 到 。 

3) 类 别 相关 度 

如 果 两 个 实体 相关 ， 那么 它们 可 能 属于 同一 类 别 ， 因 此 
类 别 相 关 度 可 以 用 来 表征 实体 相关 度 。Wikipedia 的 编辑 者 
为 每 个 实体 标注 了 若干 类 别 , 类别 信息 可 以 从 实体 主页 中 
获取 。 

仍 利用 Jaccard 系数 表示 两 个 实体 的 类 别 相关 度 ， 公式 
如 下 。 


NaN i ad 
Cninak IVE 
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‘Set. N Set, 
7 ‘Set. USet,; 


£.(e;,e;) (6) 


HP flee) 表示 实体 ei 和 实体 gj 的 类 别 相 关 度 ，Setu 
和 Set。 分 别 表示 实体 ei 实体 6 的 类 别 集合 。 
4.2 ”基于 Freebase 的 实体 链接 

(1) 指称 -实体 字典 构建 

本 文 抽取 Freebase 实体 的 标准 名 和 别名 构建 指称 
-实体 字典 。Freebase 的 实体 信息 结构 化 程度 高 A 
门 存 储 实体 属性 的 字段 ， 可 以 直接 从 名 称 字段 和 别名 
字段 抽取 实体 标准 名 和 别名 。 同 样 , 笔者 对 Freebase 
实体 指称 做 了 小 写 化 和 去 除 特殊 符号 的 处 理 , 并 利用 
ClueWeb09 的 Freebase 实体 标注 数据 集 FACCIS 
指称 指向 其 候选 实体 的 次 数 ， 例如: 

baldwin vi /m/0129jf (3) /m/01_dt9 (6) 


其 中 baldwin_vi 是 指 实体 指称 , 存储 于 指称 域 ; 
/m/0129jf、/m/01_dt9 是 指 baldwin vi 可 能 指向 的 实体 
(这 里 用 Freebase 唯一 标识 符 表示 )， 且 在 ClueWeb09 
中 baldwin vi 指向 两 个 实体 的 次 数 分 别 是 3 次 、6 次 ， 
实体 及 次 数 信息 存储 于 实体 域 , 实体 先 验 概率 可 用 公 
式 (2) 计 算 。 

(2) Freebase 实体 特征 

指称 -实体 特征 

这 里 仍 采 用 先 验 概率 和 字符 串 相 似 度 两 个 特征 ， 定义 
及 含义 均 同 Wikipedia 实体 。 注意 , Freebase 实体 标准 名 是 从 
名 称 字段 中 抽取 。 

@ 实 体 -实体 特征 

1) 文本 相关 度 

Freebase 实体 文本 相关 度 的 文本 取 自 实体 描述 
(Description) 字 段 ， 其 含义 、 预 处 理 、 计 算 公 式 均 同 Wikipedia 
实体 。 

2) 类 型 相关 度 

EMF Wikipedia 实体 的 类 别 ， 如 果 两 个 实体 相关 ， 那 
么 它们 可 能 属于 同一 类 型 ， 因 此 类 型 相关 度 可 以 用 来 表征 
实体 之 间 的 相关 度 。Freebase 的 编辑 者 为 每 个 实体 标注 了 车 
FRE, 类 型 信息 存储 在 类 型 字段 中 。 例 如 实体 Barack 
Obama (Freebase 唯一 标识 符 是 /m/02mjmr) 被 标注 了 /people/ 
person, /government/politician, /award/award_winner 等 97 
种 类 型 。 可 以 看 出 , Freebase 实体 可 能 有 多 种 类 型 ， 并 且 每 种 
类 型 是 分 层次 的 。 笔 者 对 实体 的 各 层次 类 型 名 做 了 简单 的 词 
频 统 计 ， 词 频 作 为 权重 ， 仍 用 公式 (4) 计 算 两 个 实体 的 类 型 
相关 度 。 

4.3 ”基于 Wikipedia+Freebase 的 实体 链接 
基于 Wikipedia+Freebase 的 实体 链接 同时 利用 4.1 


T 


XIANDAI TUSHU QINGBAO JISHU 


节 和 4.2 节 中 的 指称 -实体 字典 进行 候选 指称 识别 。 由 
于 Wikipedia 与 Freebase 包含 了 实体 不 同方 面 的 信息 ， 
因此 本 文 从 两 个 知识 库 中 抽取 了 不 同 的 实体 特征 ， 且 
二 者 可 形成 互补 关系 。 为 了 能 够 同时 利用 Wikipedia 
和 Freebase SERRE, A SCRE Wikipedia 实体 与 
Freebase 实体 映射 字典 。 

(1) Wikipedia 实体 与 Freebase 实体 映射 字典 

Freebase 的 实体 页 面 中 存在 等 价 页 面 (Equivalent 
Webpage) 域 ， 其 中 包含 了 与 之 等 价 的 其 他 知识 库 链 
接 。 笔 者 抽取 与 之 等 价 的 Wikipedia 实体 页 面 的 标题 ， 
从 而 建立 了 Wikipedia 实体 与 Freebase 实体 一 一 对 应 
的 关系 ,例如 : 

/m/03kkbz 873558 Ivan Bella 

其 中 /mv03kkbz 是 Freebase 实体 唯一 标识 符 , 可 通 
过 该 标识 符 获 取 Freebase 实体 的 语义 信息 ， 如 别名 、 
类 型 、 描 述 等 ; Ivan Bella 是 与 /m/03kkbz 等 价 的 
Wikipedia 实体 页 面 标题 ,利用 该 标题 可 获取 
Wikipedia 实体 的 语义 信息 ， 如 类 别 、 出 /入 链 、 主 页 文 
本 等 ; 873558 是 Wikipedia 实体 的 编号 。 

(2) Wikipedia+Freebase 实体 特征 

对 于 指称 -实体 特征 , 仍 采用 先 验 概率 和 字符 串 
相似 度 , 这 里 对 Wikipedia 和 Freebase 相应 的 特征 做 算 
术 平均 ; 对 于 实体 -实体 特征 , 利用 Wikipedia 实体 与 
Freebase 实体 映射 字典 ,基于 Wikipedia+Freebase 的 实 
体 链接 融合 Wikipedia 的 文本 、 相 关 实 体 、 类 别 等 相 
关 度 和 Freebase 的 类 型 相关 度 进行 实体 消 歧 ,， 具体 定 
义 见 4.1 节 和 4.2 市 。 


5 实验 及 结果 


5.1 数据 集 与 预 处 理 

实验 的 输入 是 2009 年 -2012 年 国际 文本 检索 会 议 
(TREC) 的 Web Track 任务 中 的 200 个 查询 主题 (Topic)， 
对 其 中 包含 的 实体 进行 人 工 标注 。 由 于 部 分 查询 主题 
本 身 即 为 实体 指称 , 无 法 根据 上 下 文 进行 实体 消 歧 ， 


Dhttps://dumps.wikimedia.org/. 
@http://www.oracle.com/technetwork/java/index.html. 
@http://lucene.apache.org/. 
@https://developers.google.com/freebase/data. 
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因此 将 其 移 除 ,最终 共 处 理 179 个 查询 主题 , 标注 242 
个 实体 。 

笔者 下 载 2013 年 12 月 2 日 Wikipedia 的 转 储 文 
件 ", 包含 实体 页 面 、 消 歧 页 面 、 重 定向 页 面 等 共 
4 450 000 余 篇 ， 以 及 页 面 链接 关系 、 实 体 类 别 信息 等 。 
利用 Java 语言 处 理 原始 文件 、 抽 取 实 体 指称 、 计 算 指 
称 指向 其 候选 实体 的 先 验 概率 , 用 Lucene 建立 索引 ， 
以 方便 指称 搜索 从 Wikipedia 中 共 抽 取 14 870 000 多 
条 指称 。 同 时 下 载 2014 年 7 月 6 H Freebase 的 RDF 
文件 ,包含 实体 的 别名 、 等 价 页 面 、 描 述 等 属性 , 共 
包含 42 660 000 多 个 实体 。 利 用 同样 的 工具 完成 指称 
抽取 、 索 引 建 立 等 工作 ， 从 Freebase 中 共 抽 取 
22 130 000 多 条 指称 。 

由 于 Freebase 中 存在 其 与 Wikipedia 的 映射 关 
系 ， 笔 者 抽取 该 映射 关系 ， 并 利用 Lucence 构 建 相应 
的 索引 。 
5.2 ”实验 结果 的 评价 指标 

采用 准确 率 、 召 回 率 和 下 值 评价 实验 效果 , 三 个 

上 标的 定义 如 下 : 


Precision = Seta est] a Set| (7) 
|Setr| 
Recall = Sete msSetr| (8) 
Set; | 


F-value = 2. Precision - Recall (9) 
Precsion + Recall 


其 中 Seta 表示 利用 本 文 的 方法 识别 的 实体 集合 ， 
Set, 表示 标注 实体 集合 ， |Setr| 表 示 和 集合 中 元 素 的 个 
数 ，|Setg| Set 门 Seti | 的 含义 类 似 。Precision 表示 准 
确 率 ， 即 正确 识别 的 实体 数 占 识别 实体 总 数 的 比例 ; 
Recall 表示 召回 率 ， 即 正确 识别 的 实体 数 占 标 注 实体 
总 数 的 比例 ,，F-value 表示 准确 率 和 召回 率 的 调和 平 
均 数 。 

5.3 ”实验 结果 

从 表 1 可 以 看 出 , 基于 Wikipedia 的 实体 链接 , YE 

确 率 达 到 62.68%, 召回 率 达 到 71.49%, F 值 达到 


66.80%; 基于 Freebase 的 实体 链接 , 准确 率 、 召 回 率 、 
F 值 分 别 达 到 69.32% 、75.62% 、72.33%; 基于 
WikipediatFreebase 的 实体 链接 , 准确 率 、 召 回 率 、F 
值 分 别 达到 71.81%、76.86%、74.25%。 


表 1 基于 不 同 知识 库 以 及 同时 基于 两 个 知识 库 的 
实体 链接 评测 结果 
知识 库 准确 率 F E F 值 
Wikipedia 62.68% 71.49% 66.80% 
Freebase 69.32% 75.62% 72.33% 
71.81% 76.86% 74.25% 
WikipediatFreebase (+14.57%) (+7.51%) (+11.15%) 
(+3.59%) (+1.64%) (+2.65%) 


CEE: 最 好 的 结果 加 粗 表 示 。 插 号 内 数值 分 别 表示 基于 
Wikipedia+Freebase 的 实体 链接 效果 相对 基于 Wikipedia 或 Freebase 
的 实体 链接 效果 的 提升 值 。) 
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5.4 讨 论 

实验 结果 显示 , 基于 Wikipedia+Freebase 的 实体 
链接 效果 均 高 于 基于 Wikipedia 1X Freebase 的 效果 ,其 
中 准确 率 分 别提 升 14.57% 和 3.59%， 召 回 率 分 别提 升 
7.51% 和 1.64%, F 值 分 别提 升 11.15% 和 2.65%, 实验 
结果 证 明了 基于 多 知识 的 实体 链接 方法 的 有 效 性 。 
图 2 和 图 3 显示 了 15 个 查询 主题 在 三 组 实验 中 的 召回 
率 和 准确 率 , 可 以 看 出 , 在 基于 Wikipedia 的 实体 链接 


实验 中 ， 部 分 查询 主题 效果 较 好 ， 例 如 pacific 
northwest laboratory, arkadelphia health club; 在 基于 
Freebase 的 实体 链接 实验 中 ， 部 分 查询 主题 效果 较 好 ， 
例如 condos in florida 、uss yorktown charleston sc; 在 
基于 Wikipedia+Freebase 的 实体 链接 实验 中 ，15 个 查 
询 主题 的 效果 都 较 好 。 


口 Wikipedia 
图 2 


回 Freebase 


E Wikipedia+Freebase 


15 个 查询 主题 在 三 组 实验 中 的 召回 率 


口 Wikipedia O Freebase 


图 3 


E Wikipedia+Freebase 


15 个 查询 主题 在 三 组 实验 中 的 准确 率 
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为 了 分 析 效 果 提 升 的 原因 ， 笔 者 补充 了 4 组 实验 ， 
结果 如 表 2 所 示 : 


表 2 ”基于 不 同 知识 库 以 及 补充 实验 评测 结果 


知识 库 准确 率 召回 率 F 值 
Wikipedia 62.68% 71.49% 66.80% 
63.26% 69.01% 66.01% 
ikipedia-MF 
Wikipedia (0.93%) (3.5%) (1.2%) 
71.43% 76.45% 73.85% 
Wikipedia-MD 
ana (+13.96%)  (+6.94%)  (+10.55%) 
Freebase 69.32% 75.62% 72.33% 
69.47% 75.21% 72.22% 
Frecbaşe-ME (+0.22%) (0.54%) (0.15%) 
69.26% 77.271% 73.05% 
Freebase-MD 
patties (0.09%) (+2.2%) (+1%) 


(iE: Wikipedia-MF 表示 在 该 实验 中 仅 利用 Wikipedia 指称 -实体 
字典 进行 指称 识别 但 同时 利用 Wikipedia 和 Freebase 实体 特征 进行 
实体 消 歧 , 以 验证 多 特征 对 实体 链接 效果 的 影响 , 括号 中 的 值 是 相 
对 基于 Wikipedia 的 实体 链接 效果 的 提升 值 ; Wikipedia-MD 表示 在 
该 实验 中 利用 Wikipedia 和 Freebase 指称 -实体 字典 进行 指称 识别 但 
仅 利用 Wikipedia 实体 特征 进行 实体 消 歧 ， 以 验证 多 指称 -实体 字典 
对 实体 链接 效果 的 影响 , 括号 中 的 值 是 相对 基于 Wikipedia 的 实体 
链接 效果 的 提升 值 ; Freebase-MF 、Freebase-MD 类 似 。) 

从 表 2 可 以 看 出 , 利用 多 个 指称 -实体 字典 进行 指 
称 识别 是 实体 链接 效果 提升 的 主要 原因 ， 其 中 召回 率 
分 别提 升 6.94% 和 2.2%, F 值 分 别提 升 10.55% 和 1%; 
多 特征 仅 对 实体 链接 的 准确 率 有 较 小 提升 (分 别提 升 
0.93% 和 0.22%)， 对 实体 链接 效果 总 体 没 有 提升 作用 。 

笔者 分 析 了 在 基于 Wikipedia+Freebase 的 实体 链 
接 实验 中 识别 错误 的 查询 主题 ,发现 以 下 问题 : 

(1) 识别 候选 指称 时 可 能 过 滤 掉 正确 的 指称 。 例 
如 对 于 查询 主题 old coins, 其 正确 的 指称 是 coins, 但 
是 由 于 “old coins’ # iE EK, 并 且 符 合 最 长 匹配 的 
原则 ， 因 此 被 保留 。 笔 者 发 现 “old coins”" 在 Wikipedia 
中 仅 有 一 次 作为 指称 出 现 , 但 是 由 于 缺少 相应 的 策略 ， 
造成 指称 识别 错误 。 同 因 ，espn sports, diabetes 
education 也 发 生 了 指称 识别 错误 。 

(2) 获取 候选 实体 时 指称 所 指向 的 实体 可 能 没 被 
获取 。 例 如 对 于 查询 主题 website design hosting, 在 获 
取 指 称 hosting 的 候选 实体 时 , 根据 最 大 先 验 概率 选取 
Wikipedia 中 该 指称 可 能 指向 的 前 k 个 实体 , 然而 这 k 
个 实体 不 包含 指称 hosting 所 指向 的 实体 ， 因 此 造成 候 
选 实体 选取 错误 ,并 且 笔 者 发 现 Freebase 中 指称 
hosting 可 能 指向 的 前 k 个 实体 包含 该 指称 所 指向 的 实 
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体 。 同 因 , lymphoma in dogs, fact on uranus 也 发 生 候 
选 实 体 选 取 错 误 。 

(3) 未 能 正确 地 对 实体 进行 消 疏 。 例 如 对 于 查询 
主题 obama family tree, 基于 Wikipedia+Freebase 的 实 
体 链接 未 能 正确 地 对 其 进行 消 卜 ,造成 实体 识别 错 
误 。 笔 者 认为 回 消 卜 框 架 中 加 入 更 多 特征 或 许 能 解决 


这 类 问题 。 
6 结 语 


本 文 提 出 一 种 基于 多 知识 库 的 实体 链接 方法 ， 以 
Wikipedia 和 Freebase 为 例 的 实验 结果 表明 ， 基 于 
Wikipedia+Freebase 的 实体 链接 效果 高 于 基于 Wikipedia 
或 Freebase 的 实体 链接 效果 。 本 文 存在 两 点 不 足 , 即 
基于 词性 过 滤 n-gram 缺乏 理论 依据 、 数 据 集 FACCI 
具有 高 准确 率 和 低 召 回 率 的 特点 罩 。 男 外 ,本文 的 方法 
也 可 适用 于 其 他 知识 库 , 例如 对 于 YAGO, 利用 
“HasWikipediaURL” 关 系 可 以 构建 YAGO 实体 与 
Wikipedia 实体 的 映射 字典 ， 再 结合 笔者 构建 的 
Wikipedia 实 体 与 Freebase 实 体 映 射 字典 可 构建 三 个 知 
识 库 实体 的 映射 字典 ; 利用 “means” 关 系 收集 YAGO 
实体 的 指称 外 并 利用 Wikipedia 实体 主页 的 锚 文 本 统 
计 指 称 指 向 其 候选 实体 的 次 数 请 ;从 而 构建 相同 结构 
的 指称 -实体 字典 ; 利用 文本 相关 度 、 类 型 相关 度 ( 根 
据 type 关系 和 subClass 关系 计算 的 实体 类 型 距离 请) 
等 进行 实体 消 歧 。 基 于 本 文 的 结论 , 笔者 认为 基于 
Wikipedia+Freebase+YAGO 的 实体 链接 效果 将 会 高 于 
基于 Wikipedia 或 Freebase 或 YAGO 的 实体 链接 效果 。 
未 来 笔者 将 会 探索 更 好 的 信息 融合 方式 以 期 进一步 
提升 基于 多 知识 库 的 实体 链接 效果 。 
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Entity Linking Method for Short Texts with Multi-Knowledge Bases: 
Case Study of Wikipedia and Freebase 


Zhou Pengcheng’ Wu Chuan! Lu Weit? 
!(School of Information Management, Wuhan University, Wuhan 430072, China) 
(Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper proposes an entity linking method using multi-knowledge bases, aiming at solving 
the problem of low coverage caused by entity linking with single knowledge base. [Methods] First, we generated 
n-gram of input text and obtained candidate mentions using part of speech and multi-mention-entity dictionary. Second, 
we generated and retained mention combinations of highest coverage which are not contained by other mention 
combinations. Third, we generated entity sequences and calculated their relevence degree using information from 
multi-knowledge bases. We listed entity sequence with the highest relevence degree as the final result. [Results] This 
case study showed that the Precision, Recall, and F-value of the entity linking based on Wikipedia+Freebase reaches 
71.81%, 76.86%, and 74.25% respectively. [Limitations] Filtering n-gram based on part of speech lacked theoretical 
foundation, and the FACC1 dataset featured high precision but low recall. [Conclusions] Utilizing entity information 
from multi-knowledge bases can improve the performance of entity linking. 


Keywords: Entity linking Knowledge base Wikipedia Freebase 
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